[t:/]$ 지식_

1입 1출

2016/06/20

MR 코딩을 하는데 있어서 매퍼든 리듀서든 1입 1출 식으로 구현하면 1출에 대한 동기화 경쟁 및 IO 플러싱 한다고 시스템이 벅벅대므로 속도가 느려집니다. (상세히는 bdflush 등과 관계 있을 수도 있습니다만, 정확히는 찾아봐야 하므로 여기서 다루진 않것습니다.)

저같은 경우 하둡알못 + MR알못이라 하둡스트리밍을 사용합니다. 하둡 스트리밍에서는 stdin / stdout 으로 MR을 처리하는데요, 문득 몇 줄 바꿔서 stdout을 인타발로 모아서 처리했더니 상당한 속도 향상을 얻었습니다. 이는 로컬에서 뭘 짤 때에는 항상 상식적인 일이나, MR을 작성할 때에는 데이터 로직만 생각하느라 간과하기 쉽습니당.. 인아웃인아웃..

요약 : 1입 n출로 MR을 구현하는 것이 빠르당..

하둡 인프라에 세입자가 하두 많아서 오늘 빠르다고 나온 결과는 순전히 운이었을지도 모른다는 생각이 드네요.. 다른 세입자가 잠시 논 사이 빨리 계산했다등가..





공유하기













[t:/] is not "technology - root". dawnsea, rss